查看原文
其他

如何用文本分析度量企业ESG属性信息

大邓 大邓和他的Python
2024-09-09


文献

Mansouri S, Momtaz P P. Financing sustainable entrepreneurship: ESG measurement, valuation, and performance[J]. Journal of Business Venturing, 2022, 37(6):106258.


摘要

可持续发展导向对初创企业的初始估值有积极影响,但对其融资后财务业绩有负面影响。在其他条件相同的情况下,将可持续发展方向提高一个标准差将使初创公司的融资金额增加 28%,并将投资者每个融资后年度的异常回报减少 16%。结果适用于基于区块链的众筹活动(也称为首次代币发行(ICO)或代币发行)的大量样本。本文一个关键的贡献是使用机器学习方法从文本数据中评估初创公司环境、社会和治理(ESG)属性



开发算法:量化初创企业的ESG属性

现有研究对如何衡量初创企业的ESG属性还未形成统一框架,且存在以下两个问题:(1)现有的ESG指标主要由几个数据供应商提供,而供应商之间的相关性非常低;(2)现有的ESG评级不适用于初创企业,即存在数据缺失。因此,本文采用一种机器学习的方法,量化初创企业的ESG属性:

1.文本预处理:从公司网站等收集ICO白皮书后,使用斯坦福大学开发的CoreNLP管道生成句子的依赖性表示,并识别一些搭配词;

2.建立种子词:收集《金融时报》中所有带有“ESG投资、道德金钱”标签的文章,采用标准的词袋模型提炼出现频率最高的二元组、三元组词汇,然后对这些词汇进行人工筛查,并在此基础上手动添加一些与代币发行有关的词汇,得到三个维度的种子词数为:70、38、46;

3.选取联想词:使用Word2vec模型扩充种子词,为ESG的每个维度挑选500个最为相近的术语,经再次筛查后,得到三个维度的词典数量为:508、463、524;

4.计算ESG分数

在(1)式中,代表白皮书i中术语的计数,c(n)是相应的单词列表的大小,即用频率来表征企业在某一维度的得分,然后将三个维度的得分加总得到最终的ESG分数;



精选内容

96G数据集 | 2亿条中国大陆企业工商注册信息

70G数据集 | 3571万条专利申请数据集(1985-2022年)

数据集 | 2006年-2022年企业社会责任报告

93G数据集 | 中国裁判文书网(2010~2021)

数据集 | 2001-2022年A股上市公司年报&管理层讨论与分析

数据集 | 3.9G全国POI地点兴趣点数据集

数据集 | 2014年-2022年监管问询函

CAR2023 | 文本分析在会计中的应用

管理世界 | 使用文本分析词构建并测量 短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

管理世界 | 政府与市场心理因素的经济影响及其测度

中国管理科学 | 使用业绩说明会文本数据测量上市公司前瞻性信息

文本分析 | 中国企业高管团队创新注意力(含代码)

金融研究 | 使用Python构建「关键审计事项信息含量」

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

网络爬虫 | 使用Python采集B站弹幕和评论数据

网络爬虫 | 使用Python披露采集 Up 主视频详情信息

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | Netflix 数据可视化最佳实践

可视化 | 使用geopandas可视化地图数据

使用 Word2Vec 和 TF-IDF 计算五类企业文化

数据集 | 07-21年上市公司「委托贷款公告」

数据集 | 200w政府采购合同公告明细数据(1996.6-2022.12)

数据集 | 84w条业绩说明会问答数据(2005-2023)

单个csv文件体积大于电脑内存,怎么办?

高管数据 | 使用pandas对xlsx中的简介字段做文本分析


继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存